Une méthode générique de rétroconversion de documents pour la constitution de dossiers numériques

نویسندگان

  • Bertrand Coüasnon
  • Jean Camillerapp
چکیده

RÉSUMÉ. Dans un certain nombre de cas, les dossiers numériques sont constitués par rétroconversion de documents papier. Or jusqu’à présent ces rétroconversions impliquent de développer, pour chaque type de documents, un système spécifique de reconnaissance. Nous proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le système de reconnaissance adapté à partir de la description de la structure de chaque document. Cette méthode qui a déjà été utilisée sur différents types de documents (partitions musicales, formules mathématiques...), permet entre autres de repérer les structures tabulaires contenues dans une page. Elle vient d’être validée sur plus de 5 000 fiches nominatives d’incorporation militaire du XIXe siècle. En produisant une description XML du document, la méthode permet d’appliquer ensuite d’autres traitements comme la constitution de pages d’index visuels ou le masquage de champs confidentiels.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

La rétroconversion de fonds bibliographiques pour des besoins de bibliométrie

RÉSUMÉ. Cet article décrit une méthodologie de rétroconversion de citations permettant de retrouver les champs composants à partir de leur texte reconnu par OCR. Cette méthodologie se base à la fois sur la régularité et la redondance de certains champs ainsi que sur la localisation de parties de discours spécifiques à certains champs. Le résultat de la rétroconversion sert à des études de bibli...

متن کامل

PFC: Un outil d'aide à la découverte des contenus des documents et à la création de dossiers

Cet article traite de la construction automatique et dynamique de dossiers consolidés. La construction de dossiers utilise plusieurs étapes : recherche des documents les plus significatifs à partir d’une requête par mots-clés, classification dynamique du résultat de la requête en utilisant plusieurs classifieurs aux comportements différentiés, combinaison des résultats de ces classifieurs pour ...

متن کامل

Représentation Symbolique de Trajectoires Géolocalisées

RESUME. Énormément de trajectoires géolocalisées sont produites et disponibles, mais leur exploitation pour en tirer des informations intéressantes reste difficile. L'obstacle qui nous intéresse ici est la mauvaise qualité de certaines de ces données : échantillonnage très irrégulier et précision médiocre. Nous proposons de les transposer dans des domaines symboliques pour pouvoir effectuer des...

متن کامل

Extraction non supervisée de motifs temporels, multidimensionnels et hétérogènes Application à la télésurveillance médicale à domicile

Résumé. Une méthode générique pour l’extraction non supervisée de motifs dans des séquences temporelles multidimensionnelles et hétérogènes est proposée, puis expérimentée pour l’identification des comportements récurrents d’une personne à domicile. L’objectif est de concevoir un système d’apprentissage des habitudes de vie, à partir des données de capteurs, pour la détection d’évolutions criti...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Document Numérique

دوره 6  شماره 

صفحات  -

تاریخ انتشار 2002